Afficher les données
Prenons un tableau de données un peu plus conséquent, en l’occurrence un jeu de données disponible dans l’extension questionr et correspondant à un extrait de l’enquête Histoire de vie réalisée par l’INSEE en 2003. Il contient 2000 individus et 20 variables.
Si on demande d’afficher l’objet d dans la console (résultat non reproduit ici), R va afficher l’ensemble du contenu de d à l’écran ce qui, sur un tableau de cette taille, ne sera pas très lisible. Pour une exploration visuelle, le plus simple est souvent d’utiliser la visionneuse intégrée à RStudio et qu’on peut appeler avec la fonction View.
Les fonctions head et tail, qui marchent également sur les vecteurs, permettent d’afficher seulement les premières (respectivement les dernières) lignes d’un tableau de données :
L’extension dplyr, que nous n’aborderons en détails que plus tard, propose une fonction glimpse (ce qui signifie aperçu
en anglais) qui permet de visualiser rapidement et de manière condensée le contenu d’un tableau de données.
Rows: 2,000
Columns: 20
$ id <int> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11...
$ age <int> 28, 23, 59, 34, 71, 35, 60, 47, 2...
$ sexe <fct> Femme, Femme, Homme, Homme, Femme...
$ nivetud <fct> "Enseignement superieur y compris...
$ poids <dbl> 2634.3982, 9738.3958, 3994.1025, ...
$ occup <fct> "Exerce une profession", "Etudian...
$ qualif <fct> Employe, NA, Technicien, Technici...
$ freres.soeurs <int> 8, 2, 2, 1, 0, 5, 1, 5, 4, 2, 3, ...
$ clso <fct> Oui, Oui, Non, Non, Oui, Non, Oui...
$ relig <fct> Ni croyance ni appartenance, Ni c...
$ trav.imp <fct> Peu important, NA, Aussi importan...
$ trav.satisf <fct> Insatisfaction, NA, Equilibre, Sa...
$ hard.rock <fct> Non, Non, Non, Non, Non, Non, Non...
$ lecture.bd <fct> Non, Non, Non, Non, Non, Non, Non...
$ peche.chasse <fct> Non, Non, Non, Non, Non, Non, Oui...
$ cuisine <fct> Oui, Non, Non, Oui, Non, Non, Oui...
$ bricol <fct> Non, Non, Non, Oui, Non, Non, Non...
$ cinema <fct> Non, Oui, Non, Oui, Non, Oui, Non...
$ sport <fct> Non, Oui, Oui, Oui, Non, Oui, Non...
$ heures.tv <dbl> 0.0, 1.0, 0.0, 2.0, 3.0, 2.0, 2.9...
L’extension questionr propose une fonction lookfor qui permet de lister les différentes variables d’un fichier de données :
Lorsqu’on a un gros tableau de données avec de nombreuses variables, il peut être difficile de retrouver la ou les variables d’intérêt. Il est possible d’indiquer à lookfor un mot-clé pour limiter la recherche. Par exemple :
Il est à noter que si la recherche n’est pas sensible à la casse (i.e. aux majuscules et aux minuscules), elle est sensible aux accents.
La méthode summary qui fonctionne sur tout type d’objet permet d’avoir quelques statistiques de base sur les différentes variables de notre tableau, les statistiques affichées dépendant du type de variable.
id age sexe
Min. : 1.0 Min. :18.00 Homme: 899
1st Qu.: 500.8 1st Qu.:35.00 Femme:1101
Median :1000.5 Median :48.00
Mean :1000.5 Mean :48.16
3rd Qu.:1500.2 3rd Qu.:60.00
Max. :2000.0 Max. :97.00
nivetud
Enseignement technique ou professionnel court :463
Enseignement superieur y compris technique superieur:441
Derniere annee d'etudes primaires :341
1er cycle :204
2eme cycle :183
(Other) :256
NA's :112
poids occup
Min. : 78.08 Exerce une profession:1049
1st Qu.: 2221.82 Chomeur : 134
Median : 4631.19 Etudiant, eleve : 94
Mean : 5535.61 Retraite : 392
3rd Qu.: 7626.53 Retire des affaires : 77
Max. :31092.14 Au foyer : 171
Autre inactif : 83
qualif freres.soeurs
Employe :594 Min. : 0.000
Ouvrier qualifie :292 1st Qu.: 1.000
Cadre :260 Median : 2.000
Ouvrier specialise :203 Mean : 3.283
Profession intermediaire:160 3rd Qu.: 5.000
(Other) :144 Max. :22.000
NA's :347
clso relig
Oui : 936 Pratiquant regulier :266
Non :1037 Pratiquant occasionnel :442
Ne sait pas: 27 Appartenance sans pratique :760
Ni croyance ni appartenance:399
Rejet : 93
NSP ou NVPR : 40
trav.imp trav.satisf
Le plus important : 29 Satisfaction :480
Aussi important que le reste:259 Insatisfaction:117
Moins important que le reste:708 Equilibre :451
Peu important : 52 NA's :952
NA's :952
hard.rock lecture.bd peche.chasse cuisine bricol
Non:1986 Non:1953 Non:1776 Non:1119 Non:1147
Oui: 14 Oui: 47 Oui: 224 Oui: 881 Oui: 853
cinema sport heures.tv
Non:1174 Non:1277 Min. : 0.000
Oui: 826 Oui: 723 1st Qu.: 1.000
Median : 2.000
Mean : 2.247
3rd Qu.: 3.000
Max. :12.000
NA's :5
On peut également appliquer summary à une variable particulière.
Homme Femme
899 1101
Min. 1st Qu. Median Mean 3rd Qu. Max.
18.00 35.00 48.00 48.16 60.00 97.00
L’extension questionr fournit également une fonction bien pratique pour décrire les différentes variables d’un tableau de données. Il s’agit de describe. Faisons de suite un essai :
d
20 Variables 2000 Observations
------------------------------------------------------------
id
n missing distinct Info Mean Gmd
2000 0 2000 1 1000 667
.05 .10 .25 .50 .75 .90
101.0 200.9 500.8 1000.5 1500.2 1800.1
.95
1900.0
lowest : 1 2 3 4 5, highest: 1996 1997 1998 1999 2000
------------------------------------------------------------
age
n missing distinct Info Mean Gmd
2000 0 78 1 48.16 19.4
.05 .10 .25 .50 .75 .90
22 26 35 48 60 72
.95
77
lowest : 18 19 20 21 22, highest: 91 92 93 96 97
------------------------------------------------------------
sexe
n missing distinct
2000 0 2
Value Homme Femme
Frequency 899 1101
Proportion 0.45 0.55
------------------------------------------------------------
nivetud
n missing distinct
1888 112 8
lowest : N'a jamais fait d'etudes A arrete ses etudes, avant la derniere annee d'etudes primaires Derniere annee d'etudes primaires 1er cycle 2eme cycle
highest: 1er cycle 2eme cycle Enseignement technique ou professionnel court Enseignement technique ou professionnel long Enseignement superieur y compris technique superieur
------------------------------------------------------------
poids
n missing distinct Info Mean Gmd
2000 0 1877 1 5536 4553
.05 .10 .25 .50 .75 .90
799.8 1161.7 2221.8 4631.2 7626.5 10819.0
.95
13647.9
lowest : 78.07834 92.68033 92.93637 127.90122 153.01026
highest: 27195.83782 29548.78954 29570.78696 29657.94035 31092.14132
------------------------------------------------------------
occup
n missing distinct
2000 0 7
lowest : Exerce une profession Chomeur Etudiant, eleve Retraite Retire des affaires
highest: Etudiant, eleve Retraite Retire des affaires Au foyer Autre inactif
Exerce une profession (1049, 0.524), Chomeur (134, 0.067),
Etudiant, eleve (94, 0.047), Retraite (392, 0.196), Retire
des affaires (77, 0.038), Au foyer (171, 0.086), Autre
inactif (83, 0.042)
------------------------------------------------------------
qualif
n missing distinct
1653 347 7
lowest : Ouvrier specialise Ouvrier qualifie Technicien Profession intermediaire Cadre
highest: Technicien Profession intermediaire Cadre Employe Autre
Ouvrier specialise (203, 0.123), Ouvrier qualifie (292,
0.177), Technicien (86, 0.052), Profession intermediaire
(160, 0.097), Cadre (260, 0.157), Employe (594, 0.359),
Autre (58, 0.035)
------------------------------------------------------------
freres.soeurs
n missing distinct Info Mean Gmd
2000 0 19 0.977 3.283 2.87
.05 .10 .25 .50 .75 .90
0 1 1 2 5 7
.95
9
lowest : 0 1 2 3 4, highest: 14 15 16 18 22
0 (167, 0.084), 1 (407, 0.203), 2 (427, 0.214), 3 (284,
0.142), 4 (210, 0.105), 5 (151, 0.076), 6 (99, 0.050), 7
(94, 0.047), 8 (52, 0.026), 9 (37, 0.018), 10 (21, 0.011),
11 (21, 0.011), 12 (8, 0.004), 13 (10, 0.005), 14 (4,
0.002), 15 (4, 0.002), 16 (1, 0.000), 18 (2, 0.001), 22 (1,
0.000)
------------------------------------------------------------
clso
n missing distinct
2000 0 3
Value Oui Non Ne sait pas
Frequency 936 1037 27
Proportion 0.468 0.518 0.014
------------------------------------------------------------
relig
n missing distinct
2000 0 6
lowest : Pratiquant regulier Pratiquant occasionnel Appartenance sans pratique Ni croyance ni appartenance Rejet
highest: Pratiquant occasionnel Appartenance sans pratique Ni croyance ni appartenance Rejet NSP ou NVPR
Pratiquant regulier (266, 0.133), Pratiquant occasionnel
(442, 0.221), Appartenance sans pratique (760, 0.380), Ni
croyance ni appartenance (399, 0.200), Rejet (93, 0.046),
NSP ou NVPR (40, 0.020)
------------------------------------------------------------
trav.imp
n missing distinct
1048 952 4
Le plus important (29, 0.028), Aussi important que le reste
(259, 0.247), Moins important que le reste (708, 0.676),
Peu important (52, 0.050)
------------------------------------------------------------
trav.satisf
n missing distinct
1048 952 3
Value Satisfaction Insatisfaction Equilibre
Frequency 480 117 451
Proportion 0.458 0.112 0.430
------------------------------------------------------------
hard.rock
n missing distinct
2000 0 2
Value Non Oui
Frequency 1986 14
Proportion 0.993 0.007
------------------------------------------------------------
lecture.bd
n missing distinct
2000 0 2
Value Non Oui
Frequency 1953 47
Proportion 0.977 0.024
------------------------------------------------------------
peche.chasse
n missing distinct
2000 0 2
Value Non Oui
Frequency 1776 224
Proportion 0.888 0.112
------------------------------------------------------------
cuisine
n missing distinct
2000 0 2
Value Non Oui
Frequency 1119 881
Proportion 0.559 0.440
------------------------------------------------------------
bricol
n missing distinct
2000 0 2
Value Non Oui
Frequency 1147 853
Proportion 0.574 0.426
------------------------------------------------------------
cinema
n missing distinct
2000 0 2
Value Non Oui
Frequency 1174 826
Proportion 0.587 0.413
------------------------------------------------------------
sport
n missing distinct
2000 0 2
Value Non Oui
Frequency 1277 723
Proportion 0.638 0.362
------------------------------------------------------------
heures.tv
n missing distinct Info Mean Gmd
1995 5 29 0.972 2.247 1.877
.05 .10 .25 .50 .75 .90
0 0 1 2 3 4
.95
5
lowest : 0.0 0.1 0.2 0.3 0.4, highest: 8.0 9.0 10.0 11.0 12.0
------------------------------------------------------------
Comme on le voit sur cet exemple, describe nous affiche le type des variables, les premières valeurs de chacune, le nombre de valeurs manquantes, le nombre de valeurs différentes (uniques) ainsi que quelques autres informations suivant le type de variables.
Il est possible de restreindre l’affichage à seulement quelques variables en indiquant le nom de ces dernières.
age trav.satisf
20 Variables 2000 Observations
------------------------------------------------------------
id
n missing distinct Info Mean Gmd
2000 0 2000 1 1000 667
.05 .10 .25 .50 .75 .90
101.0 200.9 500.8 1000.5 1500.2 1800.1
.95
1900.0
lowest : 1 2 3 4 5, highest: 1996 1997 1998 1999 2000
------------------------------------------------------------
age
n missing distinct Info Mean Gmd
2000 0 78 1 48.16 19.4
.05 .10 .25 .50 .75 .90
22 26 35 48 60 72
.95
77
lowest : 18 19 20 21 22, highest: 91 92 93 96 97
------------------------------------------------------------
sexe
n missing distinct
2000 0 2
Value Homme Femme
Frequency 899 1101
Proportion 0.45 0.55
------------------------------------------------------------
nivetud
n missing distinct
1888 112 8
lowest : N'a jamais fait d'etudes A arrete ses etudes, avant la derniere annee d'etudes primaires Derniere annee d'etudes primaires 1er cycle 2eme cycle
highest: 1er cycle 2eme cycle Enseignement technique ou professionnel court Enseignement technique ou professionnel long Enseignement superieur y compris technique superieur
------------------------------------------------------------
poids
n missing distinct Info Mean Gmd
2000 0 1877 1 5536 4553
.05 .10 .25 .50 .75 .90
799.8 1161.7 2221.8 4631.2 7626.5 10819.0
.95
13647.9
lowest : 78.07834 92.68033 92.93637 127.90122 153.01026
highest: 27195.83782 29548.78954 29570.78696 29657.94035 31092.14132
------------------------------------------------------------
occup
n missing distinct
2000 0 7
lowest : Exerce une profession Chomeur Etudiant, eleve Retraite Retire des affaires
highest: Etudiant, eleve Retraite Retire des affaires Au foyer Autre inactif
Exerce une profession (1049, 0.524), Chomeur (134, 0.067),
Etudiant, eleve (94, 0.047), Retraite (392, 0.196), Retire
des affaires (77, 0.038), Au foyer (171, 0.086), Autre
inactif (83, 0.042)
------------------------------------------------------------
qualif
n missing distinct
1653 347 7
lowest : Ouvrier specialise Ouvrier qualifie Technicien Profession intermediaire Cadre
highest: Technicien Profession intermediaire Cadre Employe Autre
Ouvrier specialise (203, 0.123), Ouvrier qualifie (292,
0.177), Technicien (86, 0.052), Profession intermediaire
(160, 0.097), Cadre (260, 0.157), Employe (594, 0.359),
Autre (58, 0.035)
------------------------------------------------------------
freres.soeurs
n missing distinct Info Mean Gmd
2000 0 19 0.977 3.283 2.87
.05 .10 .25 .50 .75 .90
0 1 1 2 5 7
.95
9
lowest : 0 1 2 3 4, highest: 14 15 16 18 22
0 (167, 0.084), 1 (407, 0.203), 2 (427, 0.214), 3 (284,
0.142), 4 (210, 0.105), 5 (151, 0.076), 6 (99, 0.050), 7
(94, 0.047), 8 (52, 0.026), 9 (37, 0.018), 10 (21, 0.011),
11 (21, 0.011), 12 (8, 0.004), 13 (10, 0.005), 14 (4,
0.002), 15 (4, 0.002), 16 (1, 0.000), 18 (2, 0.001), 22 (1,
0.000)
------------------------------------------------------------
clso
n missing distinct
2000 0 3
Value Oui Non Ne sait pas
Frequency 936 1037 27
Proportion 0.468 0.518 0.014
------------------------------------------------------------
relig
n missing distinct
2000 0 6
lowest : Pratiquant regulier Pratiquant occasionnel Appartenance sans pratique Ni croyance ni appartenance Rejet
highest: Pratiquant occasionnel Appartenance sans pratique Ni croyance ni appartenance Rejet NSP ou NVPR
Pratiquant regulier (266, 0.133), Pratiquant occasionnel
(442, 0.221), Appartenance sans pratique (760, 0.380), Ni
croyance ni appartenance (399, 0.200), Rejet (93, 0.046),
NSP ou NVPR (40, 0.020)
------------------------------------------------------------
trav.imp
n missing distinct
1048 952 4
Le plus important (29, 0.028), Aussi important que le reste
(259, 0.247), Moins important que le reste (708, 0.676),
Peu important (52, 0.050)
------------------------------------------------------------
trav.satisf
n missing distinct
1048 952 3
Value Satisfaction Insatisfaction Equilibre
Frequency 480 117 451
Proportion 0.458 0.112 0.430
------------------------------------------------------------
hard.rock
n missing distinct
2000 0 2
Value Non Oui
Frequency 1986 14
Proportion 0.993 0.007
------------------------------------------------------------
lecture.bd
n missing distinct
2000 0 2
Value Non Oui
Frequency 1953 47
Proportion 0.977 0.024
------------------------------------------------------------
peche.chasse
n missing distinct
2000 0 2
Value Non Oui
Frequency 1776 224
Proportion 0.888 0.112
------------------------------------------------------------
cuisine
n missing distinct
2000 0 2
Value Non Oui
Frequency 1119 881
Proportion 0.559 0.440
------------------------------------------------------------
bricol
n missing distinct
2000 0 2
Value Non Oui
Frequency 1147 853
Proportion 0.574 0.426
------------------------------------------------------------
cinema
n missing distinct
2000 0 2
Value Non Oui
Frequency 1174 826
Proportion 0.587 0.413
------------------------------------------------------------
sport
n missing distinct
2000 0 2
Value Non Oui
Frequency 1277 723
Proportion 0.638 0.362
------------------------------------------------------------
heures.tv
n missing distinct Info Mean Gmd
1995 5 29 0.972 2.247 1.877
.05 .10 .25 .50 .75 .90
0 0 1 2 3 4
.95
5
lowest : 0.0 0.1 0.2 0.3 0.4, highest: 8.0 9.0 10.0 11.0 12.0
------------------------------------------------------------
On peut également transmettre juste une variable :
d$sexe
n missing distinct
2000 0 2
Value Homme Femme
Frequency 899 1101
Proportion 0.45 0.55